予測報酬誤差(reward-prediction error)
強化学習(Reinforcement Learning; RL)
TD learning
割引率(discount factor)
ドーパミン(Dopamine)
脳における
予測報酬誤差(reward-prediction error)
は以下を参照
A neural substrate of prediction and reward | Science (1997)